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且 不 正规 ,在 这 种 情况 下 就 会 产生 许多 的 网 络 新 闻 。 如 “ 属 丝 ”、 当前 新 词 发 现 方法 共有 三 种 :基于 规 贝 
“给 力 ”、“ 尼 玛 ” 等 。 在 自然 语言 处 理 中 ， 新 词 的 出 现 对 于 ”于 统计 的 新 词 发现 方 法 和 基于 规则 与 统计 相 结 合 的 新 词 发 
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摘 要: 如 何 快速 高 效 地 识别 新 词 是 自然 语言 处 理 中 一 项 非常 重要 的 任务 ， 针 对 当前 新 词 发 现存 在 的 问题 ， 提 出 了 一 
种 从 左 至 右 逐 字 在 未 切 词 的 微 博 语 料 中 发 现 新 闻 的 算法 。 通 过 计算 候选 词语 与 其 右 邻 接 字 的 互信 息 来 逐 字 扩展 ， 得 到 
候选 新 词 ; 并 通过 计算 邻接 粒 、 删 除 候选 新 词 的 首尾 停 用 词 和 过 滤 旧 词语 等 方法 来 过 滤 候 选 新 刘 ， 最 终 得 到 新 间 集 。 
解决 了 因 切 词 错误 早 致 部 分 新 词 无 法 识别 以 及 通过 n-gram 方法 早 致 大 量 重复 词 串 和 垃圾 词 串 识别 为 新 词 的 问题 , 最 后 
通过 实验 验证 了 该 算法 的 有 效 性 
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New word discovery algorithm based on mutual information and branch entropy 
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Abstract: How to identify new words quickly and efficiently is a very important task in natural language processing. Aiming at 
the problems existing in the discovery of new words, there is an algorithm for word-finding new words verbatim from left to 
right in the uncut word Weibo corpus. One way to get a candidate new word ls by computing the candidate word and its right 
adjacent word mutual information to expand word by word; There are some ways to filter candidate new words to get new word 
sets. The included methods include calculating the branch entropy, deleting stop words contained in the first or last word of 
each candidate new word and deleting old words included in the candidate new word set. It solves the problem that some new 
words can not be recognized due to the mistakes in the word segmentation and It also solves the problem that the large number 
of repetitive word strings and rubbish words strings generated by the n-gram method are identified as new words. Finally, 
experiments verified the effectiveness of the algorithm. 
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了 中 


前 新 词 并 没有 准确 的 定义 ， 在 本 文中 将 未 登录 词 由 与 新 


词 等 同 ， 也 就 是 说 在 本 文中 新 词 就 是 指 不 在 旧 词 典 中 的 词语 。 


随 着 科学 技术 的 迅速 发 展 ， 人 们 通过 微 博 来 发 表 个 人 意见 ”本 文 使 用 的 旧 词 } 


为 第 六 届 中 文 倾向 分 析 评 测 (COAE) 任务 3 
的 情况 也 越 来 越 常见 ， 大 多 数 的 微 博 都 比较 随意 ， 非 常 口语 化 中 公开 的 旧 词 典 资源 。 


is 


的 新 词 发 现 方法 / 基 


岗 方 


情感 词典 的 构建 、 短 文本 的 倾向 性 分 析 、 中 文 分 词 等 诸多 方面 。 法 。 基 于 规则 的 新 词 发 现 方法 3l 是 指 利用 词性 特征 、 语 言 学 的 


a 
中 


带 来 了 许多 不 利 的 影响 ， 降 低 了 它们 的 效能 。 所 以 如 何 高 效 的 。”” 构 词 规 则 等 方面 发 现 新 词 ， 新 词 发 现 的 准确 率 较 高 ， 但 可 扩展 


识别 新 词 成 为 自然 语言 处 理 过 程 中 一 项 非常 重要 的 任务 。 性 、 灵 活性 都 比较 差 ， 而 且 还 会 消耗 大 量 的 人 力 和 物力 。 基 于 
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录用 稿 刘 伟 童 ， 等 ; 基于 互信 息 和 邻接 精 的 新 词 发 现 算法 


统计 的 新 词 发 现 方 法 是 指 通 过 大 量 的 实验 语 料 计算 词语 的 。 { 。 主要 技术 
词 频 、 成 词 概率 、 左 右 邻 接 入 、 邻 接 变 化 数 等 统计 特征 来 识别 
新 词 。 基 于 统计 的 方法 较为 灵活 ， 不 受 领域 的 限制 、 易 扩展 且 “1.1 互信 息 


可 移植 性 较 好 ， 但 存在 数据 稀疏 和 准确 率 较 低 的 缺点 。 基 于 规 词语 作为 一 个 可 以 独立 存在 的 语言 单元 ， 词 语 的 各 个 字 之 
则 与 统计 相 结 合 的 新 词 发 现 方法 -WI 则 是 希望 融合 上 述 两 种 方 间 存 在 一 定 的 相关 性 。 所 以 字 与 字 或 词 与 字 之 间 的 相关 性 越 大 ， 
法 的 优点 ， 从 而 提高 新 词 发 现 的 准确 率 和 效率 。 说 明 字 与 字 或 词 与 字 成 词 的 概率 也 就 越 大 。 互 信息 可 以 计算 两 
当前 主流 的 新 词 发 现 方法 是 基于 规则 与 统计 相 结合 的 方法 ，“ 个 物体 相互 依赖 的 程度 ， 而 且 互 信息 值 越 大 ， 代 表 两 个 物体 的 
充分 利用 规则 和 统计 这 两 种 方法 的 优点 ， 期 望 可 以 使 准确 率 和 依赖 程度 也 就 越 大 ， 所 以 可 以 用 互信 息 计 算 新 词 的 内 部 成 词 概 
效率 达到 最 优 。 郑 家 恒 等 人 中 提出 了 基于 构词法 进行 新 词 识 别 率 。 互 信息 0 的 计算 公式 为 : 
的 方法 ， 通 过 汉语 构 词 的 方法 建立 规则 库 来 获得 新 词 。 陈 飞 等 pr 证 
4 提出 的 基于 条 件 随 机 场 方法 的 开放 领域 新 词 发 现 方法 ， 首 先 PCODOP(y) 


j 切 词 工具 进行 分 词 ， 得 到 标 有 词性 的 词语 ， 之 后 再 计算 词语 。” 其 中 :p(y)、p 抱 表示 字 或 词 x、y 单独 出 现在 语 料 集 中 的 概率 ， 
的 特征 值 ， 并 利用 CRF 进行 学 习 预测 ， 最 终 得 到 新 词 。 该 方法 PCJ 表 示 守 和 了 共同 在 语 料 集中 出 现 的 概率 。MZG, 世 表示 xx 和 
仅仅 是 通过 统计 的 方法 来 进行 新 词 发 现 , 并 没有 结合 语言 规则 ， ”yy 的 关联 程度 。 若 MI(x,y)>0, 表 示 x 和 yy 是 相互 关联 的 , 而 且 MI 
而 且 比 较 依 赖 切 词 系 统 ， 若 切 词 系统 无 法 正确 识别 词语 ， 就 会 的 值 越 大 表示 二 者 相关 联 的 程度 越 大 ,也 就 越 有 可 能 成 为 新 词 ; 
降低 新 词 发 现 的 效果 。 李 文 坤 等 人 四 提出 的 基于 词 内 部 结合 度 。 若 MI(%,y)=0， 则 表示 x 和] 了 是 彼此 独立 的 ， 若 MIG,y)<0, 则 表 
和 边界 自由 度 的 新 词 发 现 方法 , 首先 利用 NLPIR 汉语 分 词 系统 。 示 x 和 yy 是 不 相关 的 。 
0 对 实验 语 料 进行 切 词 处 理 ， 计 算 两 个 相 邻 散 串 的 互信 息 值 ， 互信 息 可 以 用 来 计算 两 个 事物 的 关联 程度 ， 所 以 互信 息 可 
之 后 再 利用 左右 邻接 烂 进行 扩展 、 过 滤 ， 最 终 得 到 新 词 集 。 天 ”以 用 于 发 现 二 元 新 词 ， 但 却 无 法 处 理 三 元 及 以 上 的 新 词 。 文 献 
荣 朋 等 人 四 提出 的 基于 改进 互信 息 和 邻接 粹 的 微 博 新 词 发 现 方 。 [1 和 1 经 过 大 量 的 语 料 进行 新 词 发 现 的 实验 后 归纳 出 11 种 构 词 模 
法 , 首先 通过 n-gram 对 语 料 进行 切 分 得 到 候选 词语 , 利用 词语 ” 式 ， 而 且 发 现 单字 模式 “1+1”、“1+1+1”、“1+1+1+1” 占 新 词 总 
的 词 频 和 停 用 词 等 规则 进行 过 滤 ， 之 后 再 利用 改进 的 互信 息 对 ” 数 的 61.4%, 模式 “2+1”、“3+1” 占 新 词 总 数 的 31.2%。 从 上 述 可 
行 扩 展 ， 通 过 计算 左右 邻接 粹 值 对 候选 词语 进行 二 ”以 看 出 三 元 及 以 上 的 新 词 在 新 词 的 总 数 中 占有 一 定 的 比例 ， 如 
次 过 滤 ， 最 后 过 滤 掉 旧 词语 得 到 新 词 。 该 算法 利用 了 规则 与 统 。 何 识别 三 元 及 以 上 的 新 词 是 一 个 号 待 解决 的 问题 。 
计 相 结合 的 方法 , 但 是 通过 n-gram 会 产生 大 量 的 候选 词 串 ， 导 为 了 解决 上 述 问题 ， 提 出 了 从 左 至 右 在 未 切 词 的 实验 语 料 
致 新 词 发 现 的 过 程 比较 慢 ， 且 会 产生 较 多 的 垃圾 词 串 ， 使 其 准 ”中 逐 字 扩 展 的 方法 。 有 具体 方法 如 下 : 假设 当前 字 的 位 置 为 i 
确 率 比 较 低 。 周 超 等 人 "提出 的 融合 词 频 特性 及 邻接 变化 数 的 (i=1,.….,n)， 假 设 相 邻 字 c 和 cry 的 互信 息 值 Miei;, cit7) 大 于 
微 博 新 词 识别 方法 ， 首 先 利 用 中 科 院 的 切 词 工具 ICTCLAS 对 阐 值 MI_TH， 则 继续 向 右 扩展 ， 计 算 MI(cigcit1， cits)， 若 
微 博 语 料 进行 切 词 ， 之 后 找 出 两 个 停 用 词 之 间 的 词 串 ， 求 得 相 ”Mi(ci&cit1, cr) 也 大 于 MI_TH， 再 继续 向 右 扩 展 ， 当 且 仪 当 
邻 的 词 串 的 词 频 ， 根 据 阔 值 删 选 得 到 候选 词 串 ， 再 利用 成 词 规 MI(c&cry&cr&...&crm , citmt1 ) 小 于 净值 MI_TH， 则 停止 扩 
则 进行 筛选 得 到 候选 新 闻 ， 最 后 通过 邻接 变化 数 过 滤 ， 最 终 得 。 展 ， 并 将 候选 词语 Camfci&ciry@&cr+? 有 …&cit 由 加 入 到 候选 新 词 
到 新 词 集 ， 该 算法 比较 依赖 切 词 系统 ， 会 因为 切 词 错误 导致 部 
分 新 词 无 法 识别 。 雷 一 鸣 等 人 "提出 的 面向 网 络 语言 基于 微 博 上 述 方 法 解决 了 互信 息 仅 能 统计 两 个 元 素 的 局 限 性 ， 使 其 
语 料 的 新 词 发 现 方法 , 首先 通过 切 词 工具 对 语 料 进行 切 分 ,获得 。 对 于 多 元 词语 也 可 以 进行 很 好 的 判断 。 如 : 以 新 词 “ 细 思 恐 极 ” 
切 词 后 的 散 串 ， 并 对 散 串 进行 统计 分 析 ， 通 过 计算 散 串 间 的 互 。 举例 ， 当 统计 出 候选 二 元 新 词 “ 细 思 ” 时 ， 向 右 扩展 ， 计 算 “ 
信息 值 获得 候选 新 词 ， 并 通过 过 滤 低 频 词 和 获得 邻接 变化 数 的 。 ” 思 ” 与 “多 ”的 互信 息 ， 若 高 于 闵 值 ， 则 继续 向 右 扩 展 ， 计 算 “ 细 
值 ， 进 行 过 滤 最 终 得 到 新 词 ， 该 算法 也 比较 依赖 切 词 系统 ， 会 ” 思 恐 ”与 “ 极 ” 的 互信 息 ， 以 此 得 出 新 词 “ 细 思 恐 极 *"， 而 且 上 述 方 
因 切 词 系统 的 好 坏 决 定 新 词 识 别 的 效果 。 法 可 以 避免 垃圾 词 串 “ 细 思 ”、“ 细 思 极 *”、“ 娩 极 *"、“ 思 榴 极 ”的 
综 上 所 述 ， 若 采用 常用 的 切 词 系统 对 实验 语 料 进行 切 词 ， 产生 ， 极 大 地 提高 了 新 词 发 现 的 效率 。 
有 可 能 会 出 现 因为 错误 的 切 分 导致 新 词 无 法 正确 识别 的 现象 ， 1.2 ”邻接 炳 
从 而 降低 了 新 词 发 现 的 准确 率 ; 若 采 用 n-gram 方法 对 实验 语 当前 确定 新 词 左右 边界 的 方法 一 般 有 两 种 ,邻接 炉 (Branch 
料 进行 切 分 则 会 出 现 大 量 的 重复 词 串 , 导 致 新 词 发 现 的 准确 率 、 Entropy，BE) 和 邻接 变化 数 (Accessor Variety，AV)， 本 文采 用 左 
效率 比较 低 。 所 以 本 文采 用 在 未 切 词 的 实验 语 料 中 从 左 到 右 进 邻接 灶 来 确定 新 词 的 左右 边界 。 邻 接 炉 可 以 衡量 候选 新 词 
行 逐 字 扩 展 ， 利 用 互信 息 、 左 右 邻 接 粹 等 统计 特征 和 删除 候选 ” ”的 左右 邻接 字符 的 不 确定 性 ， 其 不 确定 性 越 大 ， 说 明 其 邻接 字 
新 词 的 首尾 停 用 词 、 过 滤 旧 词语 等 规则 相 结合 进行 新 词 发 现 。 符 包 含 的 信息 越 多 ， 其 成 词 的 概率 就 越 高 。 
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录用 稿 
H,(W)=- 2 P(W, |W)log pOW, |W) O) 
右 邻 接 精 : 
Ha(W)=— 2 POW, |W)log p(W, |W) @) 


W, 


其 中 : s, 是 候选 词 W 的 左 邻接 字 的 外 
plWi |W) 表示 W 是 候选 词 W 的 左 邻接 字 的 条 件 


接 字 的 集合 ; 


ESr 


全 
代 口 ? 


5 是 候选 词 W 的 右 邻 


概率 ， p(W, |W) 表示 了 为 候选 词 W 的 右 邻 接 字 的 条 件 概率 。 
其 中 pw | mr) 和 pw | w) 的 计算 公式 为 


p(W, |W)= 


其 中 : N(W,W) 表示 W 和 W 共同 H 


出 现 的 次 数 。 同 理 ， 
N(W) 表示 W 出 


N(W,W) 


(W) 


,P{W, |W) 


_N(W,W,) 
NN(W) 


(4) 


bt 现 的 次 数 ，N(W) 表示 W 
NWir,W) 表示 W 和 WW 共同 出 现 的 次 数 ， 
岗 的 次 数 。 
本 文通 过 邻接 焙 来 过 滤 候 选 新 词 ， 但 并 不 用 于 扩 


展 候选 新 


词 ， 也 就 是 说 若 候选 新 词 的 左 邻 
则 保留 候选 新 词 ， 否 则 便 删除 候选 新 词 。 


2 


2.1 本文 的 改进 思路 


切 词 系统 


日 益 成 熟 , 但 仍 不 可 避免 的 存在 切 词 错误 的 
在 切 词 后 的 语 料 上 进行 新 词 发 现 可 


词 无 法 识别 的 
区 5 
采用 n-gram 方法 对 语 料 进 
且 将 n-gram 与 互信 息 结合 


现象 ， 可 


以 通过 采 月 
规避 因 切 词 系统 的 错 分 导致 


能 会 出 现 医 


搓 炉 和 石 邻 接 炉 都 大 于 立 值 ， 


基于 互信 息 和 邻接 灼 新 词 发 现 算法 


错误 切 词 导致 新 


日 n-gram 方法 对 语 料 进行 切 
了 分 新 词 无 法 识别 的 现象 。 但 
行 切 分 , 会 出 现 
虽然 可 以 用 于 发 现 二 元 新 词 ， 
极 佳 ， 但 却 无 法 识别 三 元 及 以 上 站 


量 的 重复 词 串 ,而 


是 效果 


的 新 词 。 


为 了 解决 上 述 问题 ， 本 文采 用 逐 字 从 左 向 右 在 未 切 词 的 语 
料 集 上 计算 互信 息 的 方法 来 识别 新 词 。 解 决 切 词 系 统 、n-gram 
方法 和 互信 息 存 在 的 缺点 。 有 共 体 步骤 如 下 : 

首先 是 微 博 语 料 的 预 处 理 。 将 实验 语 料 按 标 点 符号 、 特 殊 
符号 和 英文 字母 进行 切 分 ， 并 去 掉 标 点 符号 、 特 殊 符号 及 英文 
字母 。 

其 次 是 计算 互信 息 值 ， 生 成 候选 新 词 集 。 从 左 至 右 逐 字 扩 


展 候选 词语 ， 因 为 互 


以 先 统计 候选 词语 与 右 邻 接 字 共 


过 滤 ， 之 后 再 计算 候选 词语 与 右 令 
展 ， 和 否则 前 
最 后 是 过 滤 候 选 新 词 ， 得 到 新 词 集 。 
接 灼 闪 值 ， 计 算 左 右 邻 接 和 ， 
阔 值 的 候选 新 词 
尾 出 现 的 停 用 词 并 过 滤 掉 
， 那 么 新 词 必 不 在 旧 词典 中 ， 所 以 再 过 ; 


信息 闵 值 便 继续 向 右 扩 
词 的 过 滤 ， 设 置 左右 邻 
邻接 炉 值 小 于 左右 邻接 炉 
余 候 选 新 词 首 
因为 是 发 现 新 词 


言 息 存 在 无 法 有 效 识别 低频 词 的 缺点 ， 所 
网 的 词 频 ， 按 照 词 频 阐 值 进行 


选 新 词 集中 的 


jh 接 字 的 互信 息 值 ， 若 大 于 互 
将 候选 词语 记 作 候 选 新 词 。 


用 邻接 灶 进 行 候选 新 
将 左右 
上 除 ， 之 后 再 删除 剩 


包含 数字 的 候选 新 词 ; 


虐 掉 候 


词语 。 最 后 是 过 滤 掉 候选 新 词 集中 长 度 小 于 二 
的 词语 ， 这 样 便 得 到 了 新 词 集 。 


刘 伟 童 ， 


2.2 算法 流程 
本 文 提出 的 新 词 发 现 算 法 是 面向 微 博 的 ， 因 微 博 自身 的 特 


点 
行 
短 


字 


< 


i 


Nn 


A 


2.3 ”算法 实现 


等 : 基于 互信 


ChinaXiv 合 作 期 十 
na YA 


， 微 博 语 料 中 存在 许多 的 元 余数 据 ， 所 以 首先 需要 对 语 料 进 
删除 微 博 语 料 中 的 元 余 成 分 ， 并 ; 


预 处 
句 ， 然 后 在 预 处 理 
的 互信 息 ， 得 到 候选 新 词 ， 


5 


等 微 博 切 分 成 多 个 


后 的 语 料 中 从 左 至 右 逐 字 计 算 词 与 右 邻 接 


最 后 再 利用 邻接 焙 、 过 滤 候 选 新 


首尾 的 停 用 词 、 过 滤 


日 词语 等 规则 进行 筛选 ， 最 终 得 到 新 词 


。 有 具体 算法 的 流程 如 


( 开始 ) 


实验 语 料 
预 处 理 


1) 预 处 理 的 过 程 


图 1 所 示 。 


过 滤 掉包 含 数字 


删除 候选 新 词 首尾 》 
停 用 词 的 候选 新 词 


A 
是 否 在 旧 词 典 
中 


加 


计算 词 与 右 邻 接 
国生 i 过 滤 长 度 小 于 2 的 
TT 计算 词 的 左右 邻接 炳 候选 新 词 
否 
互信 息 > 闭 值 词 加 入 候选 新 词 集 计 入 新 词 集 
l l pa 
词 与 字 合 并 成 词 并 (结束 
再 向 右 扩 展 一 个 字 i 
图 1 算法 流程 图 


丸 为 微 博 中 含 


里。 将 微 博 按照 标点 符号 


大 量 的 噪声 数据 ， 所 以 首先 是 进行 预 处 


` 特 殊 符 号 及 英文 字母 进行 断 句 ， 


将 每 条 微 博 断 成 多 条 小 短 句 ， 并 去 掉 用 于 断 句 的 标点 符号 、 特 


殊 


的 


符号 和 英文 字母 。 
输入 : 微 博 语 料 M 

输出 : 预 处 理 后 的 微 博 语 料 Mi 
Mi=RemoveSymbol(M); 
并 删除 符号 */ 
Mi=RemoveAlpha(Mi); 
字母 */ 


Return Mi; 


// 返 区 
2) 通过 互信 息 生 成 


医 选 


/* 按 


奶 M 中 的 标点 符号 及 特殊 符号 断 句 ， 


/* 按 照 Mi 中 的 英文 字母 断 句 ， 并 删除 英文 


预 处 理 后 的 微 博 语 料 Mi 


新 词 的 过 程 


将 微 博 语 料 从 左 至 右 逐 字 扩展 ， 统 计 词 语 和 右 邻 接 字 共 现 
词 频 , 若 高 于 词 频 阔 值 再 计算 候选 词语 与 右 邻 接 字 的 互信 息 ， 


若 


il 


大 于 互信 息 阀 值 便 将 候选 词语 与 右 邻 接 字 组 成 新 的 候选 词语 ， 


继续 向 右 扩 展 统 计 词 频 并 计算 互信 息 值 ， 直 到 


邻 


必 选 词语 与 右 


接 字 的 互信 


输入 : 预 处 理 后 的 微 博 语 料 Ma 


息 小 于 互信 息 闪 值 ， 则 停止 向 右 扩 
词语 为 候选 新 词 ， 从 而 形成 候选 新 词 集 。 


展 ， 记 该 候选 


:201804.02058v1 
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录用 稿 


CanList 


/* 设 置 Canword 的 初 值 为 Mi 中 某 个 句子 的 第 一 个 


输出 : 候选 新 词 身 


CanWord=d[8]; 


mt 


字 */ 
for (int i=1; i<Mi.length; i++) 
{ //d[i] 表 示 M 中 某 个 句子 的 第 i+1 个 字 


CanWord+=d[i]; 


if(Freque( CanWord, d[i+1]) >Fre_TH ) 

{ 
MI(CanwWord，d[i+1]); // 计 算 互信 息 值 

if(MI( CanWord, d[i+1])<MI_TH) 

{ ”//MI_TH 为 词 频 阔 值 
CanList.add(CanWord); 


Canword=d[i+1];// 开 始 生成 下 一 个 候选 新 词 


else 


Canword=d[i+1]; 


} 
return // 返 回 候选 新 词 集 CanList 

3) 通 过 邻接 焙 和 部 分 规则 进行 过 滤 得 到 新 词 集 的 过 程 

对 候选 新 词 集 按照 邻接 烂 和 部 分 规则 进行 过 滤 ， 设 置 左右 
邻接 箭 的 闪 值 ， 将 大 于 左右 邻接 彤 阔 值 的 候选 新 词 保留 ， 再 删 
掉 候选 新 词 首尾 出 现 的 停 用 词 ， 过 滤 掉 包含 数字 的 候选 新 词 ， 
再 过 滤 掉 候选 新 词 中 包含 在 旧 词 典 中 的 词语 ， 最 后 过 滤 掉 长 
小 于 二 的 候选 新 词 ， 最 终 得 到 新 词 集 。 

输入 : 候选 新 词 集 CanList 


输出 : 新 词 集 NewWordList 


CanList; 


涡 


for (W: CanList) 


{ // 对 于 CanList 中 的 每 个 候选 新 词 计算 左右 邻接 炳 


H,(W)=- 5 PW |W)log pW |W) ， 


Wes 
Ha(W)=- 2 P(W, |W)log pW, |W) ， 
WeS, 
if ( H,(W) >HL_TH 8&& Hr(W) >HR_TH) 
{ //HL_TH 和 HR_TH 为 左右 邻接 粹 闽 值 


CanListi.add(w) ; 


} 

for (W: CanListi) 

{ // 删 除 候选 新 词 首尾 的 停 用 词 
W=RemoveStopWord(W); 

} 

for (W: CanListi) 


{ ”// 过 渡 掉 包含 数字 的 候选 新 词 


hinaxi V 合 作 期 上 


AN 
if( ! W.contain( 数 字 )) 
CanList,.add(W); 
} 
for (W: CanList,) 
{ // 过 滤 掉 旧 词 语 
if( ! OldwordList.contain(W)) 
CanList3.add(W); 
} 
for (W: CanList;) 
{ // 过 滤 掉 长 度 小 于 二 的 词语 
if(W.length>1) 


NewWordList.add(W); 


} 


return 


NewWordList; // 返 回 新 词 集 NewWordList 


A 


由 于 识别 网 络 新 词 所 用 的 语 料 并 没有 比较 权威 的 语 料 ， 所 
以 本 文 实验 所 用 的 微 博 语 料 是 通过 疏 虫 工具 采集 的 2017 年 3 
月 到 9 月 的 新 浪 微 博 中 比较 活跃 的 部 分 微 博 用 户 《〈《 此 处 将 比较 
活跃 的 用 户 定义 为 每 周 内 至 少 发 六 条 微 博 的 用 户 ) 发 表 的 10 万 
条 微 博 。 本 文采 用 的 算法 评价 指标 有 准确 率 P(Precision)、 召 回 
率 R(recall) 和 五 值 (F-measure)。 


P= 


NM 00% (5) 
N 


M 
R= 


x100% (6) 


_ 2PR 
P+R 

其 中 :N 表示 实验 获得 的 新 词 的 总 个 数 , M 表示 微 博 语 料 中 存在 
的 新 词 的 总 个 数 。 
为 了 证 明 本 文 算法 的 有 效 性 添加 了 两 个 对 比 实验 ， 第 一 个 
实验 是 通过 n-gram 对 微 博 语 料 进 行 切 分 ， 从 而 得 到 候选 词 , 通 
过 计算 相 邻 候选 词 的 互信 息 来 得 到 候选 新 站， 之 后 通过 计算 邻 
接 炉 过 滤 候 选 新 词 、 删 除 候选 新 词 首尾 出 现 的 停 用 词 、 过 渡 
词语 等 获得 最 终 的 新 词 集 。 第 二 个 实验 是 文献 [11] 所 用 的 方法 ， 
通过 中 科 院 的 ICTCLAS 对 微 博 语 料 进行 切 词 ， 并 计算 互信 息 


(7) 


得 到 候选 新 词 ， 之 后 通过 邻接 变化 数 对 候选 新 词 进 行 过 滤 ， 最 
后 过 滤 掉 旧 词 语 ， 得 到 新 词 集 。 实 验 结果 如 表 1， 图 2、3 的 柱 
状 图 更 加 直观 地 展示 了 实验 结果 。 
表 1 实验 结果 
实验 方法 准确 率 ”召回 率 F 值 时 间 
n-gram+MI+BE 55.45% 69.61% 61.73% 2391s/ 千 条 
文献 [11] 78.10% ”55.87% ”65.14% ”707s/ 干 条 
本 文 方法 85.53% ”60.78% ”71.06% ”1021s/ 千 条 


表 1 和 图 2 可 以 看 出 ，n-gram + MI +BE 方法 的 召回 率 
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本 以 了 
效果 却 不 是 很 理想 ， 
用 n-gram 方法 对 微 博 
词 串 ， 这 样 在 最 终 得 到 的 新 词 集 嘻 


E 确 识别 的 新 词 数量 
最 终 导致 五 值 效 


四 
个 


是 最 多 的 ， 但 准确 率 的 
也 不 佳 。 


主要 原因 是 使 


GhinaXiy 合 作 期 刊 ， 


、 中 ,1 
刘 伟 童 ， 等 : 基于 互信 息 和 邻接 粒 的 新 旋 


加 


以 避免 像 n-gram 那样 切 分 数据 产生 大 量 候选 词 串 的 现象 , 极 
大 地 避免 了 垃圾 词 串 的 产生 并 提高 了 运行 速度 ， 而 且 本 文 不 采 


语 料 进 行 


转 分 , 产生 了 大 量 的 部 分 重复 的 
包含 的 词语 


也 就 最 多 ， 而 本 


文 方法 也 存在 一 定 的 缺陷 ， 使 得 n-gram + MI +BE 可 以 识别 的 


果 比 n-gram + MI 


正确 的 新 词 数 比 本 文 方法 多 , 号 
不 可 避免 的 在 新 词 集中 也 会 存在 六 
效果 远 低 于 本 文 方法 


致 召 蕊 
F 多 


率 高 于 本 文 方法 .当然 ， 
的 垃圾 词 串 ， 导 致 准确 率 


的 准确 率 。 最 终 
+ BE 的 效果 好 。 


= 
本 


jj 致 本 文 方法 的 五 值 的 效 
表 1 可 以 看 出 ，n-gram + 


MI + BE 方法 的 运行 速度 是 最 慢 的 。 综 合 各 方面 来 说 ， 本 文 方 
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0.00% 


90.00% 


准确 


法 优 于 n-gram + MI+ BE 的 方法 。 


量 D-gram+MI+BE 


率 召回 率 


图 2 对 比 实验 1 


利文 献 [11] 


本 文 方法 
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40.00% 
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20.00% 
10.00% 

0.00% 


准确 率 


本 文 方法 


人 召 匠 


图 3 对 比 实验 2 


F 值 


通过 表 1 和 图 3 可 以 看 出 ,文献 [11] 的 运行 速度 是 最 快 的 ， 


主要 原因 是 切 词 系 统 将 微 博 语 料 切 分 成 记 
新 词 的 实验 中 , 运行 速度 会 高 于 本 文 方法 ,但 文献 [11] 的 方法 的 


F 多 词 串 ， 所 以 在 识别 


有 词 无 法 了 


E 确 识别 ， 使 准确 率 和 召 


准确 率 、 召 回 率 和 五 值 都 不 如 本 文 的 方法 ， 主 要 原因 是 切 词 系 
统 的 错误 切 分 ， 导 致 部 分 妆 


| 


率 的 效果 都 不 如 本 文 的 方法 ， 整 体 来 说 ， 本 文 方法 新 词 发 现 的 
效果 优 于 文献 [11]。 


表 1、 医 


I 


2 和 3 可 以 看 出 ， 


虽然 本 文 算法 的 实验 结果 的 
率 和 运行 速度 不 是 最 佳 的 ， 但 本 文 方法 的 准确 率 和 五 值 却 


召 
是 最 好 的 ,本 文 算法 采 | 


从 左 至 右 逐 字 来 扩 


FE 二 


展 获得 新 词 的 方法 ， 


Ns 


任何 的 切 词 系 统 ， 避 免 了 因 切 词 错误 导致 部 分 新 词 无 法 识别 
的 现象 。 从 整体 来 看 ， 本 文 算 法 优 于 上 述 两 种 算法 ， 取 得 了 不 
普 的 效果 。 


4 ”结束 语 


本 文采 用 从 左 至 右 在 未 切 词 的 微 博 语 料 中 进行 逐 字 扩展 并 
计算 互信 息 的 方法 ， 避 免 了 因 通 过 n-gram 对 语 料 进行 切 分 时 ， 
产生 大 量 重 复 、 无 用 词 串 ， 导 致 准确 率 较 低 和 运行 速度 较 慢 的 
现象 ， 同 样 也 避免 了 因 切 词 系 统 错误 分 词 导 致 新 词 无 法 识别 的 
现象 。 通 过 计算 邻接 米 、 过 滤 候 选 新 词 首尾 停 用 词 和 旧 词 语 等 
方法 来 过 滤 候 选 新 词 ,提高 新 词 发 现 的 准确 率 、 召 回 率 和 五 值 ， 
通过 实验 也 验证 了 本 文 算法 的 有 效 性 。 当 然 本 文 方法 也 存在 不 
足 ， 并 不 能 非常 准确 的 识别 低频 词 ， 由 于 本 文 未 对 微 博 语 料 切 
词 ， 所 以 在 起 初 判断 为 词语 时 ， 无 论 是 旧 词 还 是 新 让， 都 是 采 
相同 的 方法 ， 但 旧 词 的 词 频 都 相对 较 高 ， 低 频 词 相对 较 少 ， 
所 以 本 文 方法 发 现 旧 词 会 比 发 现 新 词 的 能 力 强 ， 但 因 低频 词 的 
影响 ， 未 能 识别 所 有 的 旧 词 。 所 以 本 文 的 新 词 发 现 算法 还 存在 
提高 的 空间 ， 和 希望 以 后 可 以 针对 低频 词 提 出 改进 意见 ， 再 进 
步 的 调 高 算法 的 准确 率 。 
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